文化,性别,种族等的偏见已经存在数十年,并影响了人类社会互动的许多领域。这些偏见已被证明会影响机器学习(ML)模型,并且对于自然语言处理(NLP),这可能会对下游任务产生严重的后果。减轻信息检索(IR)中的性别偏见对于避免传播刻板印象很重要。在这项工作中,我们采用了一个由两个组成部分组成的数据集:(1)文档与查询的相关性以及(2)文档的“性别”,其中代词被男性,女性和中性结合代替。我们明确地表明,当对大型预训练的BERT编码器进行全面微调时,IR的预训练模型在零摄像的检索任务中不能很好地表现,并且使用适配器网络执行的轻量级微调可改善零摄像机的检索基线的性能几乎比20%。我们还说明,预训练的模型具有性别偏见,导致检索到往往比女性更频繁的文章。我们通过引入一种偏见技术来克服这一目标,该技术在模型更喜欢男性而不是女性时惩罚该模型,从而产生了一个有效的模型,该模型以平衡的方式检索文章。
translated by 谷歌翻译
数字是文本的重要组成部分,就像任何其他单词代币一样,自然语言处理(NLP)模型是构建和部署的。尽管通常在大多数NLP任务中没有明确考虑数字,但NLP模型已经显示出基本数量的算术。在这项工作中,我们尝试利用最先进的NLP模型的潜力,并转移其在相关任务中提高性能的能力。我们建议将数字分类为实体的分类有助于NLP模型在多个任务上表现良好,包括手工制作的填充(FITB)任务以及使用联合嵌入式的问题回答,表现优于Bert和Roberta基线分类。
translated by 谷歌翻译
神经机翻译(NMT)系统旨在将文本从一种语言映射到另一个语言中。虽然NMT的各种各样的应用,但最重要的是自然语言的翻译。自然语言的显着因素是通常根据给定语言的语法的规则订购单词。虽然在开发用于翻译自然语言的NMT系统方面取得了许多进步,但是在了解源和目标语言之间的词序和词汇相似性如何影响翻译性能时,已经完成了很少的研究。在这里,我们调查来自OpenSubtitles2016数据库的各种低资源语言对的这些关系,其中源语言是英语,并发现目标语言更相似,越多,翻译性能越大。此外,我们在英语序列中研究了提供了NMT模型的影响:为基于变压器的模型,目标语言来自英语,越异常,越异常,而且POS。
translated by 谷歌翻译
在两个非辅助变形形状之间建立对应关系是视觉计算中最根本的问题之一。当对现实世界中的挑战(例如噪声,异常值,自我结合等)挑战时,现有方法通常会显示出弱的弹性。另一方面,自动描述器在学习几何学上有意义的潜在嵌入方面表现出强大的表现力。但是,它们在\ emph {形状分析}中的使用受到限制。在本文中,我们介绍了一种基于自动码头框架的方法,该方法在固定模板上学习了一个连续形状的变形字段。通过监督点在表面上的变形场,并通过小说\ emph {签名距离正则化}(SDR)正规化点偏面的正规化,我们学习了模板和Shape \ Emph {卷}之间的对齐。经过干净的水密网眼培训,\ emph {没有}任何数据启发,我们证明了在受损的数据和现实世界扫描上表现出令人信服的性能。
translated by 谷歌翻译